要了解深层relu网络的动态,我们通过将其分解为级级$ w(t)$ and Angle $ \ phi(t):= \ pi- \ theta,研究了梯度流量$ W(t)$的动态系统(t)$组件。特别是,对于具有球形对称数据分布和平方损耗函数的多层单晶元神经元,我们为大小和角度成分提供上限和下限,以描述梯度流动的动力学。使用获得的边界,我们得出结论,小规模初始化会导致深单重质神经元的缓慢收敛速度。最后,通过利用梯度流和梯度下降的关系,我们将结果扩展到梯度下降方法。所有理论结果均通过实验验证。
translated by 谷歌翻译
在多模式的行动识别中,重要的是,不仅要考虑不同方式的互补性,而且考虑全球动作内容。在本文中,我们提出了一个名为Modital Mixer(M-Mixer)网络的新颖网络,以利用跨模态和动作的时间上下文的互补信息进行多模式动作识别。我们还引入了一个简单而有效的复发单元,称为多模式上下文化单元(MCU),该单元(MCU)是M-Mixer的核心组成部分。我们的MCU在时间上编码具有其他模态的动作内容特征(例如Depth,ir)的动作内容特征。该过程鼓励M-Mixer利用全球行动内容,并补充其他模式的互补信息。结果,我们提出的方法优于NTU RGB+D 60,NTU RGB+D 120和NW-UCLA数据集的最先进方法。此外,我们通过进行全面的消融研究来证明M混合物的有效性。
translated by 谷歌翻译
理解梯度下降对Relu网络的概括能力的隐性偏见一直是机器学习研究中的重要研究主题。不幸的是,即使对于经过正方形损失训练的单个Relu神经元,最近也表现出不可能以模型参数规范来表征隐式正则化(Vardi&Shamir,2021)。为了缩小理解Relu网络的有趣概括行为的差距,在训练单神经元网络时,我们在这里检查参数空间中的梯度流动动力学。具体来说,我们发现了在支持向量方面的隐性偏见,该偏见在Relu网络良好地概括的原因和如何延伸方面起着关键作用。此外,我们分析了梯度流相对于初始化规范的幅度,并表明学习重量的规范严格通过梯度流量增加。最后,我们证明了单个Relu神经元的全球融合,以$ d = 2 $ case。
translated by 谷歌翻译
暂时视频接地(TVG)旨在根据自然语言查询将时间段定位在未修饰的视频中。在这项工作中,我们提出了一个名为TVG探索和匹配的新范式,该范式无缝地统一了两种TVG方法:无提案和基于提案的方法;前者探索了直接查找细分市场的搜索空间,后者将预定义的提案与地面真相相匹配。为了实现这一目标,我们将TVG视为一个设定的预测问题,并设计了可端到端的可训练的语言视频变压器(LVTR),该视频变压器(LVTR)利用了丰富的上下文化和平行解码的建筑优势来设置预测。总体培训时间表与两次扮演不同角色的关键损失,即时间定位损失和设定指导损失的平衡。这两个损失允许每个建议可以回归目标细分并确定目标查询。更具体地说,LVTR首先探索搜索空间以使初始建议多样化,然后将建议与相应的目标匹配,以细粒度的方式对齐它们。探索和匹配方案成功地结合了两种互补方法的优势,而无需将先验知识(例如,非最大抑制)编码到TVG管道中。结果,LVTR在两个TVG基准(ActivityCaptions and Charades-sta)上设定了新的最新结果,其推理速度是两倍。代码可在https://github.com/sangminwoo/explore-and-match上找到。
translated by 谷歌翻译
In federated learning, a strong global model is collaboratively learned by aggregating clients' locally trained models. Although this precludes the need to access clients' data directly, the global model's convergence often suffers from data heterogeneity. This study starts from an analogy to continual learning and suggests that forgetting could be the bottleneck of federated learning. We observe that the global model forgets the knowledge from previous rounds, and the local training induces forgetting the knowledge outside of the local distribution. Based on our findings, we hypothesize that tackling down forgetting will relieve the data heterogeneity problem. To this end, we propose a novel and effective algorithm, Federated Not-True Distillation (FedNTD), which preserves the global perspective on locally available data only for the not-true classes. In the experiments, FedNTD shows state-of-the-art performance on various setups without compromising data privacy or incurring additional communication costs.
translated by 谷歌翻译
相机陷阱,无人观察设备和基于深度学习的图像识别系统在收集和分析野生动植物图像方​​面的努力大大减少了。但是,通过上述设备收集的数据表现出1)长尾巴和2)开放式分布问题。为了解决开放设定的长尾识别问题,我们提出了包括三个关键构件的时间流面膜注意网络:1)光流模块,2)注意残留模块,3)一个元物质分类器。我们使用光流模块提取顺序帧的时间特征,并使用注意残留块学习信息表示。此外,我们表明,应用元装置技术可以在开放式长尾识别中提高该方法的性能。我们将此方法应用于韩国非军事区(DMZ)数据集。我们进行了广泛的实验以及定量和定性分析,以证明我们的方法有效地解决了开放式的长尾识别问题,同时对未知类别进行了强大的态度。
translated by 谷歌翻译
微生物,特别是微型游泳者,对生物学和流体动力学的领域感兴趣的运动效率和机械效率。设计鞭打的微型和宏观机器人的挑战是从弹性和流体动力学的相互作用中随后的细长结构(例如棒状鞭毛)的几何非线性变形。某些类型的细菌如大肠杆菌通过在低雷诺流中旋转多个丝状结构来推动自己。这种多鞭状的推进机制与其他类型的细菌(如富轴霍乱)呈现的单鞭状机制定性不同。差异包括鞭毛形成束,以提高细胞运动性的方向稳定性,为细胞移动提供冗余,并提供鞭毛成为递送材料本身的能力。最重要的是,多鞭状的生物系统可以激发新型软机器,用于在人体内施用药物运输和递送。我们提出了一种宏观软机械硬件平台和用于多鞭状机器人的物理合理的仿真模型的计算框架。流体结构相互作用仿真将离散弹性棒算法与正则化的阶段段的方法耦合。由于Spillmann和Teschner,两个鞭毛之间的联系由基于惩罚的方法处理。我们在我们的实验和仿真结果之间显示比较,并验证模拟工具是否可以捕获此问题的基本物理。将多抹布机器人的稳定性和效率与单鞭状的对应物进行比较。
translated by 谷歌翻译
我们调查识别来自域中的采样点的域的边界。我们向边界引入正常矢量的新估计,指向边界的距离,以及对边界条内的点位于边界的测试。可以有效地计算估算器,并且比文献中存在的估计更准确。我们为估算者提供严格的错误估计。此外,我们使用检测到的边界点来解决Point云上PDE的边值问题。我们在点云上证明了LAPLACH和EIKONG方程的错误估计。最后,我们提供了一系列数值实验,说明了我们的边界估计器,在点云上的PDE应用程序的性能,以及在图像数据集上测试。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译
Cellular automata (CA) captivate researchers due to teh emergent, complex individualized behavior that simple global rules of interaction enact. Recent advances in the field have combined CA with convolutional neural networks to achieve self-regenerating images. This new branch of CA is called neural cellular automata [1]. The goal of this project is to use the idea of idea of neural cellular automata to grow prediction machines. We place many different convolutional neural networks in a grid. Each conv net cell outputs a prediction of what the next state will be, and minimizes predictive error. Cells received their neighbors' colors and fitnesses as input. Each cell's fitness score described how accurate its predictions were. Cells could also move to explore their environment and some stochasticity was applied to movement.
translated by 谷歌翻译